#Test-time scaling问题

6个月前

「LLM, Reasoning」论文 L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning 智慧不在于一味求索，而在于懂得根据问题的复杂性，伸缩思考的深度。这篇论文非常出色，在test-time scaling的潮流中，直面了它的主要问题：即模型在推理过程中过于缓慢、冗长。 Test-time scaling的问题源于其自身特点——刻意增加LLM的推理长度，可以提升模型解决复杂问题的能力。由于强化学习（RL）对scaling的鼓励，所谓的“aha moment”让模型倾向于过度地展示其思维过程：“一方面，另一方面，aha，wait，what if...”。模型似乎时刻用超高的latency考验用户的耐心。这篇论文提出了LCPO（Length Controlled Policy Optimization，长度可控策略优化）的方法。作者同样使用RL对模型进行优化，其核心是设计一个平衡准确性和长度遵循性的奖励函数，旨在训练语言模型在保持推理准确性的同时，尽量满足提示中对长度的要求。论文最大的亮点：模型能够根据提示中给出的要求，自适应地控制推理长度，从而有效节约计算资源。两点思考： Test-time scaling的方法特别适用于复杂的数学问题。但普通用户在使用这些模型时，有多少场景是在解决复杂的数学问题？大型模型公司完全可以借鉴这一方法，根据用户的query自动决定模型推理的合适长度。强化学习带有一种强烈的rule-based（基于规则）的特点。这种特性会放大贴合规则的效果，但也容易忽略规则之外的因素。规则即是限制，因此阅读RL相关的文章时，我总有种“LLM在顾此失彼”的感觉。 OpenAI的Shunyu说：“RL finally works.” 我不完全同意。我认为更准确地说，RL finally works with specific rules.

#LLM推理长度控制 #强化学习优化 #LCPO #Test-time scaling问题 #规则限制